中文字幕亚洲一区人妻,亚洲天堂精品在线观看,成人中文字幕不卡,日韩精品嘿嘿嘿视频

檔案數(shù)字化中OCR的應(yīng)用

發(fā)布時間:2019-01-05 閱讀量:60

? 信息時代,檔案數(shù)字化已成為今后一段時期檔案工作的重中之重,紙質(zhì)檔案掃描工作在各地如火如荼地進(jìn)行。然而,掃描所產(chǎn)生的電子檔案實(shí)際上只是以圖像形式存在的文件,而非真正意義上的文本文件。也就是說,計(jì)算機(jī)只認(rèn)識檔案的外表,卻不認(rèn)識其內(nèi)在文字。用戶通過計(jì)算機(jī)只能看到檔案的原貌,卻不能對其中的內(nèi)容進(jìn)行引用、檢索等操作,這無疑對將來的電子檔案利用工作造成了很大的不便??紤]到檔案用戶的利用需求,若要得到真正文本形態(tài)的電子檔案,使檔案數(shù)字化工作更加有效、更加徹底,便要應(yīng)用到OCR技術(shù)。

  ?一、OCR概況

  所謂OCROptical Character Recognition)即光學(xué)字符識別。通俗點(diǎn)說,就是讓計(jì)算機(jī)

  “認(rèn)字”。其原理是通過專門的OCR軟件將含有文字的圖像按字切割成可獨(dú)立識別的單元,然后運(yùn)用各種算法分析每個圖像單元中文字的形態(tài)特征。通過比對標(biāo)準(zhǔn)特征庫中的數(shù)據(jù),判斷出該文字在計(jì)算機(jī)中的標(biāo)準(zhǔn)編碼并按通用格式輸出保存在文本文件中。

OCR的工作流程為影像輸入、影像前處理、文字特征抽取、比對識別、人工校正、最后將識別結(jié)果輸出保存。①雖然一張圖像真正用于軟件識別的時間不到一秒,但前期和后的加工處理不可小視。尤其是前兩個環(huán)節(jié)的操作,往往決定了OCR軟件的識別率,乃至整個OCR工作的效率。而后期人工校正環(huán)節(jié),則是保證OCR工作質(zhì)量的最直接環(huán)節(jié)。

  二、OCR技術(shù)的優(yōu)勢及其在檔案數(shù)字化過程中的應(yīng)用

  OCR技術(shù)相對于傳統(tǒng)的手工錄入方式來說,具有強(qiáng)大的優(yōu)勢。首先,OCR文字識別的速度遠(yuǎn)快于手工錄入。根據(jù)國際通行的打字速度評級標(biāo)準(zhǔn),即使是專業(yè)人員,每分鐘也僅能輸入150~240個字。而采用OCR技術(shù),即使算上前后期的處理環(huán)節(jié)所花時間,其速度也絕對比前者快好多倍。其次,OCR文字識別的質(zhì)量遠(yuǎn)高于手工錄入。雖然由于各種因素影響,OCR技術(shù)的識別率很難達(dá)到100%,但比起大批量手工錄入,其出錯率要小得多。最后,OCR還節(jié)省了大量人力資源,優(yōu)化了資源配置,使人員分配于更加有意義的工作。

  對于檔案數(shù)字化工作來說,OCR技術(shù)除了具有以上幾個普遍的優(yōu)勢之外,還有其獨(dú)特的用武之地。

  1.創(chuàng)新著錄標(biāo)引方式

  創(chuàng)建檔案目錄數(shù)據(jù)庫是一項(xiàng)較基礎(chǔ)的檔案數(shù)字化工作,目前大多數(shù)檔案館都在進(jìn)行這項(xiàng)工作很多檔案館已建成較為完備的目錄庫。然而各檔案部門的檔案條目基本都是通過手工錄入的,既費(fèi)時又費(fèi)力,還很容易出錯。尤其是一些檔案、標(biāo)題很長,又是“印發(fā)”又是“轉(zhuǎn)發(fā)”一個題名就占了好幾行,要輸入老半天。

  OCR技術(shù)提供了一種新的著錄方式,使檔案條目通過計(jì)算機(jī)錄入成為可能。工作人員可以直接從OCR后的全文中找到著錄項(xiàng):如題名、文號、責(zé)任者等復(fù)制粘貼到目錄數(shù)據(jù)庫的相應(yīng)字段中去。

  但這么做必須先掃描檔案全文、OCR然后再輸條目,顛覆了檔案數(shù)字化工作的一般工作流程。因此可行性并不高。還有一種方法是先將檔案卷內(nèi)目錄掃描、OCR處理,再復(fù)制粘貼條目或通過特定的程序自動采集條目信息

  但由于很多卷內(nèi)目錄是手寫的OCR無法識別,只得依靠手工錄入。相信隨著未來技術(shù)的發(fā)展,OCR在這方面的應(yīng)用一定能夠有所突破。

  此外,系統(tǒng)還可以對OCR后的檔案全文進(jìn)行詞頻統(tǒng)計(jì)、內(nèi)容分析從而自動提取關(guān)鍵詞、主題詞等標(biāo)識符一定程度上實(shí)現(xiàn)了檔案內(nèi)容的自動標(biāo)引。

  2.實(shí)現(xiàn)真正的全文檢索

  檔案工作中所說的全文檢索實(shí)際包括兩種類型:一種是僅對檔案目錄數(shù)據(jù)庫進(jìn)行檢索,找到相關(guān)條目后再打開相應(yīng)的檔案全文。目前檔案館大多采用這種檢索方式。且尚有很多檔案沒有電子全文。另一種是真正的全文檢索,即直接對檔案全文庫進(jìn)行檢索,而且是對檔案全文進(jìn)行逐字檢索。很明顯,后一種檢索方式的查全率比前者要高出很多。使用戶能從浩如煙海的檔案館藏中找到更多所需信息,更深入地開發(fā)利用檔案信息資源。而要實(shí)現(xiàn)真正的全文檢索自然離不開OCR技術(shù),因?yàn)橹挥袑呙鑸D像中的文字變成文本格式,才有可能對其中的文字進(jìn)行逐字檢索。

  3.支持雙層PDF技術(shù)

  所謂雙層PDF,就是一個PDF文件中的每一頁都包含兩層,上層是掃描所得到原始圖,下層是OCR識別的文字結(jié)果。這種技術(shù)在數(shù)字圖書館領(lǐng)域已得到廣泛應(yīng)用。我們在CNKI等數(shù)據(jù)庫中檢索到的PDF格式的電子文獻(xiàn)大多采用了雙層PDF技術(shù)。

  由于采用雙層PDF技術(shù)既能較好地保證檔案的原真性,在用戶需要時又能對檔案中的文字進(jìn)行選擇、復(fù)制、搜索等處理。因此必將在今后的檔案數(shù)字化工作中越來越得到青睞。而這一技術(shù)的運(yùn)用必須首先以OCR技術(shù)為支撐。

  4.拓寬檔案用戶利用面

  以往的檔案用戶大多是基于檔案的憑證價值而對其加以利用如政府查閱某份文件、居民查閱房產(chǎn)證、結(jié)婚證、學(xué)籍卡等這些利用需求對檔案的原真性要求較高。很多情況下還是需要紙質(zhì)檔案才能發(fā)揮作用。但檔案用戶的利用面絕不應(yīng)該僅限于此,檔案除了擁有憑證價值還與圖書、情報(bào)一樣具有情報(bào)價值、參考價值。如利用檔案進(jìn)行學(xué)術(shù)研究時,用戶就更加注重檔案的知識性、信息性但如果檔案是紙質(zhì)的要利用其中的內(nèi)容就必須親自去檔案館。通過印刷或手工摘錄所需信息,非常不便以至于有些用戶轉(zhuǎn)而通過網(wǎng)站或數(shù)字圖書館查閱所需信息。

  將紙質(zhì)檔案數(shù)字化并采用OCR識別,能夠使檔案信息資源實(shí)現(xiàn)全文檢索、網(wǎng)絡(luò)傳輸、方便用戶異地檢索、復(fù)制引用。從而深化用戶對檔案內(nèi)容的查詢與利用,拓寬其利用面。使檔案也能像圖書、情報(bào)一樣成為人們?nèi)粘I钪蝎@取信息、利用信息、增加學(xué)識的手段使檔案多方面地服務(wù)于公眾。

  三、提高檔案數(shù)字化過程中的OCR識別率OCR識別率是整個OCR工作的中心問題。有專家認(rèn)為,OCR識別率低于90%,采用OCR技術(shù)便毫無意義因?yàn)楹笃谛枰M(jìn)行大量的人工校正工作,抵消了OCR所帶來的效率。

對于檔案數(shù)字化這樣浩大的工程來說,提高OCR識別率意味著成倍減少花在OCR工作上的人力物力和時間精力。從而提高整個檔案數(shù)字化工作的效率極大地降低檔案數(shù)字化的成本。